Wieviel % der Arbeitszeit von Psycholog:innen entfällt im Durchschnitt auf diagnostische Tätigkeiten (Roth & Herzberg, 2008)? 27% "Welche 3 Aspekte bilden das ""diagnostische Dreieck""?" Grundlagen, Methoden, Anwendung Welche 3 Phasen hat der diagnostische Prozess? 1. Planung 2. Durchführung 3. Integration Aus welchen 3 Schritten besteht die Planungsphase im diagnostischen Prozess? 1. Auftragserhalt: Vereinbarung der Fragestellung (Eventuell Überarbeitung oder Rückgabe) 2. Ableiten spezifischer, trennscharfer Hypothesen mit Bezug zur Fragestellung 3. Operationalisierung Was sind die 3 grundlegenden Ziele der psychologischen Diagnostik? Beschreibung Erklärung Vorhersage [...]strategien gehen davon aus, dass Personen und/oder Umweltbedingungen gegeben sind und eine Veränderung ist nicht beabsichtigt oder nicht möglich Selektions-/Zuordnungsstrategien gehen davon aus, dass Personen und/oder Umweltbedingungen gegeben sind und eine Veränderung ist nicht beabsichtigt oder nicht möglich [...]strategien gehen von veränderbaren Personen und/oder Umweltbedingungen aus und haben dies als Ziel Modifikationsstrategien gehen von veränderbaren Personen und/oder Umweltbedingungen aus und haben dies als Ziel Selektionsdiagnostik: → Fragestellungen betreffen häufig [...] → Suche nach Passung zwischen [...] Selektionsdiagnostik: → Fragestellungen betreffen häufig zeitlich relative stabile Eigenschaften → Suche nach Passung zwischen Person und Bedingungen Zeitliche Stabilität im Fokus, häufig prognostische Fragestellungen, auch Eigenschaftsdiagnostik genannt Modifikationsdiagnostik: → Beginnt mit der Feststellung des [...] → Fragestellungen betreffen häufig konkretes, veränderbares [...] → Suche nach [...] in [...], um [...] zu erzielen Modifikationsdiagnostik: → Beginnt mit der Feststellung des Ist-Zustands → Fragestellungen betreffen häufig konkretes, veränderbares Verhalten → Suche nach veränderbaren Merkmalen in Personen oder Bedingungen, um Passung zu erzielen Feststellung des Ist-Zustands: auch Statusdiagnostik, Querschnittdiagnostik, Eingangsdiagnostik genannt Falls eine Intervention im Verlauf der Zeit evaluiert wird, nennt man das auch [...]diagnostik, [...]diagnostik oder [...]diagnostik. Falls eine Intervention im Verlauf der Zeit evaluiert wird, nennt man das auch Veränderungsdiagnostik, Längsschnittdiagnostik oder Prozessdiagnostik. Welche 2 Arten der Kontrolle werden bei der Evaluation einer Intervention unterschieden? Erfolgskontrolle → Einmalige Überprüfung der Zielerreichung Verlaufs- oder Prozessdiagnostik → Begleitende, kontinuierliche Erfassung möglicher Veränderungen Was sind die 2 typischen Ansätze für die Differenzierung von Zielmerkmalen? Klassifikationssystem von Wethoff & Kluck (2008) → 6 verschiedene Variablen (Umgebung, Organismus, Emotionale, Motivationale, Kognitive, Soziale) KSAs + P Ansatz aus der Personalpsychologie → Knowledge, Skills, Abilities, Personality Welche 4 Variablen unterscheidet das KSAs + P Ansatz aus der Personalpsychologie? Knowledge Skills Abilities Personality Was ist der Unterschied zwischen Fertigkeiten und Fähigkeiten? Fertigkeiten: Bereichsspezifisch, leicht veränderbar (z.B. Schach) Fähigkeiten: Allgemeiner, schwerer zu verändern (z.B. Intelligenz) Was sind die 4 typischen Methoden der diagnostischen Datenerhebung? Psychometrische Tests Interviews Verhaltensbeobachtungen Zeugnisse In welche 3 Kategorien werden psychometrische Tests oft unterteilt? Leistungstests Persönlichkeitstests (Selbst-/Fremdbericht) Persönlichkeitstests (Projektiv → Mehrdeutiges Stimulusmaterial, Annahme der Projektion von Unbewusstem) Zwischen welchen 2 Arten von Leistungstests wird differenziert? Geschwindigkeitstest: Einfache Aufgaben (von meisten Probanden lösbar) → Differenzierung durch Begrenzung der Bearbeitungszeit Niveautests: Differenzierung durch schwierige Aufgaben Was ist jeweils der Nachteil von selbst-/fremdberichteten und projektiven Persönlichkeitstests? Bericht: Gezielte Verfälschung möglich Projektiv: Gütekriterien müssen gründlich geprüft werden Was erheben apparative Verfahren? Sensorische und motorische Daten Welche 2 Teile beinhaltet die Durchführungsphase des diagnostischen Prozesses? 1. Untersuchungsplanung und -durchführung 2. Datenauswertung Welche 4 Teile beinhaltet die Integrationsphase des diagnostischen Prozesses? 1. Absicherung der Hypothese (Integration verschiedener Verfahren zur Hypothese) 2. Beantwortung der Fragestellung (Integration der Ergebnisse verschiedener Hypothesen) 3. Falls 1 oder 2 nicht erfolgreich: Weitere Verfahren 4. Rückmeldung an Auftraggeber Bei widersprüchlichen Ergebnissen in der Integrationsphase ist das Ziel [...]. Bei widersprüchlichen Ergebnissen in der Integrationsphase ist das Ziel die Sicherstellung einer Befunddominanz. Welcher Tradeoff findet auf der Normenpyramide statt? Weniger konkrete Normen (EU, Grundgesetz, Gesetze) haben tendenziell Vorrang vor konkreteren Normen (Rechtsverordnungen, Satzungen, Richtlinien) "Was ist nötig, dass man von ""Offenbaren"" im Rahmen der Schweigepflicht sprechen kann?" Eine Identifizierung der betroffenen Person ist möglich Was ist DIN 33430:2016-7? "Prozessnorm zu den ""Anforderungen an berufsbezogene Eignungsdiagnostik"" → Qualitätsanforderung an Verfahren" Arten diagnostischer Entscheidungen nach Cronbach und Gelser (1965) - 1: → Nutzen der Entscheidung: [...] vs. [...] → Annahmequote: [...] vs. [...] → Möglichkeit der Ablehnung: [...] vs. [...] Arten diagnostischer Entscheidungen nach Cronbach und Gelser (1965) - 1: → Nutzen der Entscheidung: Institution vs. Individuum → Annahmequote: festgelegt vs. variabel → Möglichkeit der Ablehnung: ja (Selektion) vs. nein (Platzierung/Modifikation) Arten diagnostischer Entscheidungen nach Cronbach und Gelser (1965) - 2: → Informationsdimensionen: [...] vs. [...] → Behandlungen: [...] vs. [...] → Entscheidungen: [...] vs. [...] Arten diagnostischer Entscheidungen nach Cronbach und Gelser (1965) - 2: → Informationsdimensionen: univariat vs. multivariat → Behandlungen: singulär vs. multipel (sequentiell) → Entscheidungen: terminal vs. investigatorisch Was ist der Unterschied zwischen terminalen und investigatorischen Entscheidungen? Terminale → endgültige Entscheidungen Investigatorisch → Entscheidung zur Findung neuer Hypothesen Wie differenzieren Cronbach und Gleser (1965) einstufige und mehrstufige Strategien? Einstufig: basierend auf einer Datenerhebung zu einem Zeitpunkt mit allen Personen (→ direkt Entscheidung für alle) Mehrstufig: Datenerhebung zu mehreren Zeitpunkt teilweise nur für Teilgruppen, basierend auf Zwischenentscheidungen (aussieben) Welche Entscheidungsstrategie ist auf der folgenden Darstellung abgebildet? Single Screen (Einzelstrategie) Welche Entscheidungsstrategie ist auf der folgenden Darstellung abgebildet? Nichtsequentielle Untersuchungsbatterie Ausgewählt werden die Personen, die im zugrunde gelegten Entscheidungsmodell am besten abschneiden (z.B. gewichteter Summenwert) Welche Entscheidungsstrategie ist auf der folgenden Darstellung abgebildet? Vorauswahl- oder Pre-reject-Strategie Schritt 1: Nach erster Datenerhebung werden Probanden, die bestimmten Wert nicht erreichen, ausgeschlossen (Bereich I) Schritt 2: Die verbleibenden Probanden absolvieren weitere Verfahren, eine Entscheidung über Annahme (Bereich III) oder Ablehnung (Bereich IV) erfolgt aus der Kombination zwischen Erst- und Folgeverfahren Welche Entscheidungsstrategie ist auf der folgenden Darstellung abgebildet? Vorentscheidungs- oder Pre-accept-Strategie Schritt 1: Nach erster Datenerhebung werden Probanden, die bestimmten Wert überschreiten, bereits (terminal) akzeptiert (Bereich II) Schritt 2: Mit den verbleibenden Probanden wird analog zur Vorauswahlstrategie verfahren, eine Entscheidung über Annahme (Bereich III) oder Ablehnung (Bereich I) erfolgt aus der Kombination zwischen Erst- und Folgeverfahren Welche Entscheidungsstrategie ist auf der folgenden Darstellung abgebildet? Vollständig sequentielle Strategie (Kombination aus Vorauswahl- und Vorentscheidungsstrategie) Welche 3 grundlegenden Entscheidungsmodelle (Kombinationsstrategien) unterscheidet man? Disjunktiv (Oder) Konjunktiv (Und) Additiv/Kompensatorisch Welches Entscheidungsmodell ist auf der folgenden Darstellung abgebildet? Disjunktiv (Oder) Welches Entscheidungsmodell ist auf der folgenden Darstellung abgebildet? Konjunktiv (Und) Welches Entscheidungsmodell ist auf der folgenden Darstellung abgebildet? Additiv/kompensatorisch Wann sind disjunktive Entscheidungsmodelle angebracht? Wenn die geforderte Leistung entweder auf die eine oder die andere Weise erbracht werden kann Wann sind konjunktive Entscheidungsmodelle angebracht? Wenn die geforderte Leistung nicht selektiv erbracht oder kompensiert werden kann Wann sind additive/konjunktive Entscheidungsmodelle angebracht? Wenn die Leistung in einem Bereich durch die in einem anderen ausgeglichen werden kann (nach Gewichtung) Was sind die 4 Hauptgütekriterien der psychologischen Diagnostik? Skalierung Objektivität Validität Reliabilität "Welche 3 Teilaspekte hat das Gütekriterium ""Objektivität""?" Durchführungsobjektivität Auswertungsobjektivität Interpretationsobjektivität Das Vorliegen von Informationen zur Normstichprobe (in einem Manual) gibt Auskunft über das Gütekriterium [...]. Das Vorliegen von Informationen zur Normstichprobe (in einem Manual) gibt Auskunft über das Gütekriterium Interpretationsobjektivität. Zusammenhänge: Bei Validität geht es nicht um [...] sondern um [...]. Zusammenhänge: Bei Validität geht es nicht um Korrelation (ungerichteter Zusammenhang) sondern um Kausalität (gerichteter Zusammenhang). Gruppenvergleiche zur Kriteriumsvalidität machen nur Sinn, wenn man sicher sein kann, dass [...]. Gruppenvergleiche zur Kriteriumsvalidität machen nur Sinn, wenn man sicher sein kann, dass das Kriterium nicht von der Sortiervariable abhängig ist. Varianzeinschränkung Wofür wird die folgende Tabelle verwendet? Multitrait-Multimethod-Matrix → Feststellung der Konstruktvalidität "Was beschreibt das Validierungsproblem der ""Zirkelschlüsse""?" "Manual A: ""Test A korreliert mit erwartungsgemäß mit Test B, also ist Test A valide!"" Manual B: ""Test B korreliert mit erwartungsgemäß mit Test A, also ist Test B valide!"" Beide könnten aber gleichermaßen etwas vollkommen anderes messen" Um Validierungsprobleme zu verhindern: Wie hoch eine divergente Korrelation sein muss, ist eine [...], die [...]. Um Validierungsprobleme zu verhindern: Wie hoch eine divergente Korrelation sein muss, ist eine theoretische Annahme, die a priori aufgestellt werden muss. Sonst Post-hoc-Erklärungen (Kausal) Ein Test ist nur dann valide dafür eine Eigenschaft zu messen, wenn a) [...] und b) [...]. (Kausal) Ein Test ist nur dann valide dafür eine Eigenschaft zu messen, wenn a) die Eigenschaft existiert und b) Variationen in der Variable die Ergebnisse der Messung kausal beeinflussen. Wenn ein Verfahren nicht objektiv ist, kann keine [...] erreicht werden. Wenn ein Verfahren nicht objektiv ist, kann keine hohe Realiabilität erreicht werden. Wie hängen Reliabilität und Validität zusammen? Nicht direkt verknüpft, ein Verfahren kann (nicht) reliabel und gleichzeitig (nicht) valide sein Aber: Wenn Reliabilität sehr schlecht → keine guten Vorhersagen können getroffen werden → Validität nicht gegeben Nebengütekriterium Normierung: Normstichproben müssen [...], [...] und [...] sein. Nebengütekriterium Normierung: Normstichproben müssen aktuell, repräsentativ und ausreichend groß sein. Warum ist Vergleichbarkeit ein wichtiges Nebenkriterium? Bei der Prozessdiagnostik müssen mehrere vergleichbare Parallelformen existieren, um Übungseffekte zu verhindern Fairness: Keine systematische Benachteiligung aufgrund [...]. Fairness: Keine systematische Benachteiligung aufgrund einer test-irrelevanten Eigenschaft. Ziel der Verhaltensbeobachtung nach Höft & Kersting (2017): Verfahren zur Eignungsbeurteilung so gestalten, dass [...] reduziert werden und letztlich die Wahrscheinlichkeit für [...] steigt. Ziel der Verhaltensbeobachtung nach Höft & Kersting (2017): Verfahren zur Eignungsbeurteilung so gestalten, dass Fehlereinflüsse reduziert werden und letztlich die Wahrscheinlichkeit für eine hohe Gültigkeit der getroffenen Aussagen steigt. Schmidt-Atzert & Amelang (2012): Verhaltensbeobachtung liefert im Idealfall Fakten, die frei von [...] sind. Schmidt-Atzert & Amelang (2012): Verhaltensbeobachtung liefert im Idealfall Fakten, die frei von Bewertungen sind. Diese Zielsetzung impliziert eine wichtige Unterscheidung zwischen Beobachtung vs. Beurteilung In welche 3 Schritte würde man eine Verhaltensbeobachtung nach der Idealvorstellung Schmidt-Atzert & Amelang (2012) einteilen? 1. Wahrnehmen 2. Registrieren/Protokollieren 3. Beurteilen Welche 3 Phasen gibt es bei der Vorbereitung einer Verhaltensbeobachtung? 1. Operationalisierungen der Zielmerkmale 2. Art der Registrierung/Protokollierung festlegen 3. Beurteilungsregeln festlegen Welche 3 Schritte hat die Operationalisierungen der Zielmerkmale (bei der Vorbereitung einer Verhaltensbeobachtung)? "1. Indikatoren festlegen 2. Differenzierungslevel festlegen (""kratzen, schlagen"" vs. ""körperlich verletzen"" vs. ""aggressives Verhalten zeigen"") 3. Indikatorengüte prüfen (Validität, Objektivität, Reliabilität)" Wofür wird die Critical Incident Technique (CIT) typischerweise genutzt? "Verhaltensnahe Indikatoren für erfolgskritische Situationen generieren (""Methode der kritischen Ereignisse"")" Wie unterscheiden sich der Bottom-Up-Ansatz (induktiv) und der Top-Down-Ansatz (deduktiv) in der Critical Incident Technique (CIT)? Bottom Up: Merkmale / Eigenschaften sind noch nicht vorhanden → Ableitung der Merkmale und Indikatoren aus konkreten Situationen Top Down: Merkmale / Eigenschaften sind schon vorhanden (Fragestellung, Kompetenzmodell) → Ableitung der Indikatoren aus konkreten Situationen Welchen Vorteil hat der Bottom-Up-Ansatz gegenüber dem Top-Down-Ansatz in der Critical Incident Technique (CIT)? Bottom up: Merkmale werden aus Zielsetzung gewonnen (Versuchen Sie sich bitte an eine konkrete Situation im Kontext XY zu erinnern, in der Ihr Verhalten erfolgreich / förderlich / hinderlich war!“) Top Down: Indikatoren für bestimmte Merkmale müssen gefunden werden (Versuchen Sie sich bitte an eine konkrete Situation zu erinnern, in der diese Kompetenz wichtig war!) → Die Zuordnung von Merkmalen ←→ Indikatoren wird bei Top-Down von den Befragten vorgenommen, bei Bottom-Up kann man selber die Zuordnung vornehmen → keine Probleme mit Doppelbelegung usw. Mit welchen Werkzeugen wird die Validität eines Indikators in der Verhaltensbeobachtung statistisch analysiert? Interkorrelation von Skalen Faktorenanalysen Analysen ähnlich zur Kriteriumsvalidität (Intervention zum Merkmal und schauen, ob Indikatoren noch auftreten) Wie wird die Objektivität von Indikatoren in der Verhaltensbeobachtung statistisch analysiert? Berechnung der Beobachter- bzw. Beurteilerübereinstimmung Wie kann man die Objektivität von Indikatoren bei der Verhaltensbeobachtung verbessern? Beobachterschulung Beobachterfehler reduzieren (z.B. Drift) Wie wird die Reliabilität eines Indikators bei der Verhaltensbeobachtung statistisch analysiert? Bei zeitlicher/situativer Stabilität: Retestreliabilität Bestimmte Maße der Beurteilerübereinstimmung (ICC) können auch als Reliabilitätsschätzung verwendet werden Wie wird die Reliabilität eines Indikators bei der Verhaltensbeobachtung verbessert? Aggregation → mehrere Situationen → verschiedene Indikatoren eines Merkmals innerhalb einer Situation Auf welche 2 Arten kann die Ausprägung eines Indikators bei der Verhaltensbeobachtung erfasst/protokolliert werden? Häufigkeit/Dauer Intensität Welche 2 Arten von Sampling werden bei der Verhaltensbeobachtung eingesetzt? Event-Sampling → Wie oft oder wie lange insgesamt? Time-Sampling → Unterteilung in gleich lange Intervalle: Wurde das Verhalten in Intervall N beobachtet? Beurteilungsregeln müssen [...] der Verhaltensbeobachtung festgelegt werden; und zwar für alle [...]. Beurteilungsregeln müssen vor der Verhaltensbeobachtung festgelegt werden; und zwar für alle verfügbaren Informationen. Welchen 2 Schritte gibt es bei der Festlegung der Beurteilungsregeln für eine Verhaltensbeobachtung? 1. Zusammenführen vieler einzelner Indikatoren zu einer Beurteilung der Merkmalsausprägung 2. Zusammenführen vieler Zielmerkmale zu einer Entscheidung Welche Modelle aus der Diagnostik können dabei helfen, Indikatorenwerte zu einer Merkmalsausprägung zu kombinieren? Entscheidungsmodelle (disjunktiv, konjunktiv, kompensatorisch) Was sind verhaltensverankerte Skalen? Skalen, die helfen, Merkmalsausprägungen (numerisch) aus freien Mitschriften u.ä. zu gewinnen und (tut x gelegentlich → 1; tut x permanent → 3) Auf welche 2 Arten kann man gegen Beobachtungs- und Beurteilungsfehler vorgehen? Aufklären/Informieren Sinnvolle Gegenmaßnahmen im Design/in der Auswertung Welche Verzerrung ist bei Verhaltensbeobachtung quasi unmöglich zu eliminieren? Reaktivität In welche 2 Richtungen kann Beobachterdrift funktionieren? Abnehmende Genauigkeit: Ermüdung/nachlassende Aufmerksamkeit Zunehmende Genauigkeit: Übung Wodurch kann erklärt werden, dass bei Verhaltensbeobachtungen Ratings stark unterschiedlicher Eigenschaften oft doch mittelstark zusammenhängen? Haloeffekt Was sind logische Fehler in Verhaltensbeobachtungen? Zur Beurteilung werden Hinweise herangezogen, die nicht passen (falsche Schlussfolgerungen) Wie kann man den Recency und Primacy Effekten bei Verhaltensbeobachtungen entgegenwirken? Kontinuierliche Verhaltensaufzeichnung wenn möglich, sonst Protokollierung Welche 3 Punkte sind bei der Zusammensetzung der Beobachter einer Verhaltensbeobachtung zu beachten? Sinnvolle Wahl der Beobachter: neutral, erfahren, extern Doppelbeobachtung Mittelung der Bewertungen (alternativ: Beobachterkonferenzen) Wann sollten Beobachter-Bewertungen gemittelt werden, wann sollte es eine Beobachterkonferenz geben? Kleine Abweichungen: Mitteln Große Abweichungen: Konferenz Was sind die 5 Anwendungsprinzipien bei Assessment-Centern? ASMET Anforderungsbezug (Anforderungsprofil erstellen) Simulation (Rollenspiele, Fallstudien) Methodenvielfalt (Mehrere Übungen pro Merkmal) Einsatz mehrerer Beobachter Transparenz (Information an die Teilnehmer über die Anforderungen) Was sagt die Empirik zur Kritriumsvalidität von Assessment Centern (Schmidt-Atzert & Amelang)? Durchschnittlich r > 0.3 (aber neuere Studien zeigen schlechtere Ergebnisse) "Was ist ""Ambulatory Assessment""?" Verwendung spezieller feldtauglicher Erhebungsmethoden, um Selbstberichtdaten, Verhaltensbeobachtungsdaten, psychometrische Verhaltensmaße, physiologische Messwerte sowie situative Bedingungen im Alltag der Untersuchten zu erfassen“ (Fahrenberg, Myrtek, Pawlik, & Perrez; 2007) Beobachter- und Beurteilerübereinstimmungen können verwendet werden, um statistische Analysen zur [...] oder [...] durchzuführen. Beobachter- und Beurteilerübereinstimmungen können verwendet werden, um statistische Analysen zur Objektivität oder Reliabilität durchzuführen. Bei welcher Art von Variablen werden prozentuale Übereinstimmungen, Cohens Kappa, Scotts Pi und Odds Ratio und Yules Y (ausschließlich) verwendet? Diskrete Variablen mit zwei Antwortkategorien Was sind 3 typische Maße für die Beobachter- und Beurteilerübereinstimmung von diskreten Variablen mit 2 Antwortkategorien? "1. Prozentuale Übereinstimmung 2. Cohens κ / Scotts π 3. Odd's Ratio / Yules Y" Wie berechnet man die prozentuale Übereinstimmung? ( Häufigkeit der Übereinstimmung / Anzahl aller Urteile ) * 100 Prozentuale Übereinstimmung kann irreführend sein, wenn [...]. Prozentuale Übereinstimmung kann irreführend sein, wenn Merkmale sehr häufig/sehr selten beobachtet werden können. → Interpretierbarkeit hängt von Basisrate ab Welche Verbesserung gegenüber der prozentuale Übereinstimmung bieten Cohens κ und Scotts π? Sie beachten zusätzlich die bei Zufall erwartete Übereinstimmung (→ Basisrate hat weniger starken Einfluss) Was ist der Wertebereich von Cohens κ und Scotts π? -1 bis +1 Wie unterscheiden sich Cohens κ und Scotts π? Cohens κ: Schätzung der erwarteten Übereinstimmung aus den kombinierten Randsummen Scotts π: Schätzung der erwarteten Übereinstimmung aus den (quadrierten) mittleren Randsummen Nach welchem grundlegenden Prinzip werden bei Cohens κ und Scotts π die erwartete Übereinstimmung berechnet? "Summe aus: Wahrscheinlichkeit einer zufälligen ""positiven"" Übereinstimmung + Wahrscheinlichkeit einer zufälligen ""negativen"" Übereinstimmung" Wie würde man mit der folgenden Tabelle die erwartete Übereinstimmung bei Zufall (für Cohens κ) berechnen? (E*G)+(F*H) → kombinierte Randhäufigkeit Wie würde man mit der folgenden Tabelle die erwartete Übereinstimmung bei Zufall (für Scotts π) berechnen? ((E+G)/2)^2 + ((F+H)/2)^2 → mittlere Randhäufigkeiten Wie errechnen sich Cohens κ und Scotts π (wenn die erwartete Übereinstimmung bei Zufall PE bereits errechnet ist)? P0: Prozentuale Übereinstimmung (P0 - PE) / (1 - PE) Was bedeuten negatives Cohens κ / Scotts π? Übereinstimmung schlechter als zufällig Wann kann man von einer schwachen Übereinstimmung bei Cohens κ / Scotts π sprechen? 0.40 - 0.59 Spezielle Eigenschaften von Cohens κ: - Ein Wert von 1 kann nur erreicht werden, wenn [...]. - Ein Wert von -1 kann nur erreicht werden, wenn [...]. Spezielle Eigenschaften von Cohens κ: - Ein Wert von 1 kann nur erreicht werden, wenn die Randverteilungen gleich sind. - Ein Wert von -1 kann nur erreicht werden, wenn alle vier Randsummen gleich sind. Spezielle Eigenschaften von Cohens κ: - Ein Wert von [...] kann nur erreicht werden, wenn die Randverteilungen gleich sind. - Ein Wert von [...] kann nur erreicht werden, wenn alle vier Randsummen gleich sind. Spezielle Eigenschaften von Cohens κ: - Ein Wert von 1 kann nur erreicht werden, wenn die Randverteilungen gleich sind. - Ein Wert von -1 kann nur erreicht werden, wenn alle vier Randsummen gleich sind. Welche 2 Fehlerquellen kann man bei der Beobachterübereinstimmung generell betrachten? Unterschiedliche Strenge (Wahrnehmungsschwellen) Mangelnde Konsistenz Woran lässt sich eine unterschiedliche Strenge der Bewerter bei diskreten Daten mit zwei Kategorien erkennen (in der Tabelle) ? Ungleiche Randverteilungen Woran lässt sich eine mangelnde Konsistenz der Bewerter bei diskreten Daten mit zwei Kategorien erkennen (in der Tabelle) ? Absolute Übereinstimmung ist abweichend, obwohl die Randverteilungen gleich sind Cohens κ und Scotts π sind [...] Maße. Das heißt, dass sie [...]. Cohens κ und Scotts π sind unjustierte Maße. Das heißt, dass sie unterschiedliche Wahrnehmungsschwellen der Rater bestrafen. → wenn die Randverteilungen unterschiedlich sind, sind unjustierte Koeffizienten kleiner als justierte Innerhalb der unjustierten Maße: Sind die Randverteilungen ungleich, so fällt [...] höher aus als [...]. Innerhalb der unjustierten Maße: Sind die Randverteilungen ungleich, so fällt Cohens κ höher aus als Scotts π. → Unterschiedliche Wahrnehmungsschwellen werden bei Scotts π stärker bestraft "Was ist damit gemeint, dass Cohens κ und Scotts π ""bereinigt"" sind?" Bei Zufall erwartete Übereinstimmung ist (teilweise) rausgerechnet Wie hängen die Werte von Cohens κ / Scotts π und die Basisrate zusammen? Cohens κ / Scotts π sind abhängig von der Basisrate. Aber andersherum (und schwächer) als bei prozentualer Übereinstimmung: Wenn die Merkmale sehr häufig oder sehr selten vorkommen, dann ist die bei Zufall erwartet Übereinstimmung sehr hoch und Cohens κ / Scotts π werden sehr klein. Was ist der grundlegende Unterschied von Odds Ratio / Yules Y zu Cohens κ / Scotts π? Odds Ratio / Yules Y sind justiert Odds Ratio / Yules Y sind [...] Maße. Das heißt, sie betrachten nur die [...]. Odds Ratio / Yules Y sind justierte Maße. Das heißt, sie betrachten nur die Konsistenz von Beobachtenden. Wie berechnet man die Odds Ratio? Odds_Übereinstimmung / Odds_NichtÜbereinstimmung ( (++)*(--) ) / ( (+-)*(-+) ) ( ͡° ͜ʖ ͡°) Was ist der Wertebereich der Odds Ratio? 0 bis Unendlich Wie werden die verschiedenen Werte der Odds Ratio (<1, =1, >1) als Übereinstimmungsmaß interpretiert? q < 1: Systematische Nicht-Übereinstimmung q = 1: Zufall q > 1: Systematische Übereinstimmung Was ist Yules Y? Normierte Odds Ratio Wie lautet die Formel für Yules Y? Odds Ratio: q Yules Y = (sqrt(q)-1) / (sqrt(q)+1) Cohens κ, Scotts π und Yules Y sind nur bei [...] gleich (=[...]) Cohens κ, Scotts π und Yules Y sind nur bei symmetrischen Kontingenztafeln gleich (=alle Randsummen sind gleich) Wie hängen Basisrate und Odds Ratio / Yules Y zusammen? Odds Ratio / Yules Y sind robust gegenüber Veränderungen der Basisrate (Unjustierte Größen:) Sollen unterschiedliche Wahrnehmungsschwellen der Rater besonders bestraft werden, dann sollte [...] verwendet werden, ansonsten [...]. (Unjustierte Größen:) Sollen unterschiedliche Wahrnehmungsschwellen der Rater besonders bestraft werden, dann sollte Scotts π verwendet werden, ansonsten Cohens κ. (Nominalskaliert:) Spielt nur die Konsistenz des Ratings eine Rolle, dann sollte [...] verwendet werden. (Nominalskaliert:) Spielt nur die Konsistenz des Ratings eine Rolle, dann sollte Yules Y verwendet werden. Wenn Yules Y hoch ist, aber Cohens κ / Scotts π nicht, dann weiß man, dass [...]. Wenn Yules Y hoch ist, aber Cohens κ / Scotts π nicht, dann weiß man, dass die Konsistenz okay ist, aber die Wahrnehmungsschwellen oder die Basisrate ein Problem sind. "Was sind 2 Besonderheiten der ""normalen"" Korrelation, wenn sie als Maß der Beobachterübereinstimmung bei diskreten Daten mit geordneten Kategorien oder kontinuierlichen Daten eingesetzt wird?" Geht nur für genau 2 Rater Justiert, nur Rangreihe wird bestraft Wie unterscheiden sich justierte und unjustierte Maße für diskrete Daten mit geordneten Kategorien oder kontinuierliche Daten? Justiert: Nur Einhaltung der Rangreihe wird bewertet Unjustiert: Absolute Übereinstimmung wird bewertet Welche 2 Maße werden typischerweise für Beobachterübereinstimmung bei diskreten Daten mit geordneten Kategorien oder kontinuierlichen Daten eingesetzt? """Normale"" Korrelation Intra-Klassen-Korrelation (ICC)" Wofür werden bei der ICC jeweils einfaktorielle bzw zweifaktorielle varianzanalytische Modelle eingesetzt? Einfaktoriell: Rater(strenge)unterschiede werden NICHT modelliert (sind dann in sigma2e enthalten) Zweifaktoriell: Rater(strenge)unterschiede werden explizt modelliert (sigma2rater) Was ist der (theoretische) Wertebereich der ICC? 0 bis 1 Wie sind ICC=0 und ICC=1 zu interpretieren (Reliabilität)? ICC = 0: Varianz ist ausschließlich auf Messfehler zurückzuführen (keine Reliabilität) ICC = 1: Varianz ist ausschließlich auf wahre Werte zurückzuführen (perfekte Reliabilität) "Ab wann kann man von einer ""guten"" ICC sprechen?" 0.60 - 0.74 Welche 3 Varianzquellen kann man bei der ICC unterscheiden? Wahre Unterschiede Raterunterschiede (optional) Fehler (der Rater) Wie wird bei varianzanalytischen ICCs die Fehlervarianz sigma2e geschätzt? Quadrierte Abweichung der Ratings für eine Person vom jeweiligen wahren Wert derselben Person (Durchschnitt aller Rater), gemittelt über alle Personen mqs_innerhalb Wie wird bei varianzanalytischen ICCs die Varianz der wahren Werte sigma2tau geschätzt (wahre Unterschiede zwischen den Personen)? Quadrierte Differenz der Raterdurchschnitte der einzelnen Personen und dem Populationsmittelwert, gemittelt über alle Personen mqs_zwischen Wie wird bei varianzanalytischen ICCs die Varianz der Rater sigma2rater geschätzt/berechnet (Raterunterschiede)? Für jeden Rater wird der Mittelwerte der Ratings über alle Personen berechnet Dann: Quadrierte Differenz dieses Wertes vom Gesamtmittelwert der Rater (mittelwert aus obigen Werten), gemittelt über alle Rater mqs_rater Welche 2 Szenarien, in denen man ICCs wählen muss, unterscheidet man? 1. Man kann die Situation der Datenerhebung noch gestalten - Wahl der ICC je nach Aussage 2. Die Situation oder die Daten sind bereits gegeben - Eingeschränkte Entscheidung, welche ICCs möglich sind Welche 4 Entscheidungen sind bei der Wahl des ICC zu treffen? 1-faktoriell vs 2-faktoriell (Raterunterschiede modellieren?) random vs fixed (Raterpopulation oder nur untersuchte Rater) unjustiert vs justiert single vs average (Reliabilität von einem Rater oder gemittelt über mehrere?) Eine 2-faktorielle ICC kann nur berechnet werden, wenn [...]. Eine 2-faktorielle ICC kann nur berechnet werden, wenn jede Person von jedem Rater beobachtet bzw. bewertet wurde. "Was ist der Unterschied zwischen einer ""Random"" ICC und einer ""Fixed"" ICC?" "Fixed: Nur die untersuchten Rater sind von Interesse Random: Man kann die Ergebnisse hinsichtlich der Ratervarianz auf eine Population von Ratern generalisieren (Rater sind eine ""repräsentative"" Stichprobe aus einer Population von Ratern)" Da sich die Unterscheidung random/fixed auf die Ratervarianz bezieht, unterscheiden sich nur [...] ICCs in dieser Eigenschaft. Da sich die Unterscheidung random/fixed auf die Ratervarianz bezieht, unterscheiden sich nur 2-faktorielle ICCs in dieser Eigenschaft. Justiert/Unjustiert: Dieser Unterschied kann als Entscheidung nur bei [...] ICCs einfließen, eine [...] ICC ist immer unjustiert. Justiert/Unjustiert: Dieser Unterschied kann als Entscheidung nur bei 2-faktoriellen ICCs einfließen, eine 1-faktorielle ICC ist immer unjustiert. "Was ist der Unterschied zwischen einer ""Single"" ICC und einer ""Average"" ICC?" Single: Wie gut ist die Übereinstimmung eines Ureils mit dem von anderen Ratern? Average: Wie messgenau ist das gemittelte Urteil mehrerer Rater? (diese Unterscheidung ist für alle ICCs möglich) Wie hängen ICCs und die Merkmalsvarianz der Stichprobe zusammen? Eine geringe Merkmalsvarianz in der Stichprobe geht mit einer geringen ICC einher (bei gleichbleibender Schätzung der Fehlervarianz) Welche Eigenschaften hat das ICC Modell 1 nach Shrout & Fleiss (1979)? 1-faktoriell (folglich auch unjustiert) Welche Eigenschaften hat das ICC Modell 2 nach Shrout & Fleiss (1979)? 2-faktoriell unjustiert random Welche Eigenschaften hat das ICC Modell 3 nach Shrout & Fleiss (1979)? 2-faktoriell justiert fixed Wofür stehen A und B bei ICC(A,B)? A: Welches Modell nach Shrout & Fleiss (1979) B: 1 = Single, k = Average (Anzahl der Ratings, aus denen der Mittelwert gebildet wurde) Mit was ist ICC(3,k) äquivalent? Cronbachs Alpha ICCs sind ein Maß für die Beobachter-/Beurteilerübereinstimmung bei [...]. ICCs sind ein Maß für die Beobachter-/Beurteilerübereinstimmung bei diskreten Daten mit geordneten Kategorien und kontinuierlichen Daten. Für die Berechnung der ICC wird die beobachtete Varianz in den Bewertungen auf verschiedene [...] aufgeteilt. Für die Berechnung der ICC wird die beobachtete Varianz in den Bewertungen auf verschiedene Varianzquellen aufgeteilt. Dadurch, dass die Varianz der wahren Werte auch geschätzt wird, können ICCs als [...] herangezogen werden. Dadurch, dass die Varianz der wahren Werte auch geschätzt wird, können ICCs als Schätzung für die Reliabilität der Beurteilung herangezogen werden. Was ist das typische Anwendungsszenario für das ICC1-Modell? Raterpool von n Ratern, jede Person wird von unterschiedlichen Raterkombinationen beobachtet = jeweils absolute Übereinstimmung wird errechnet Was berechnet der ICC(1,k) aus der varianzanalytischen Sicht? Geschätzter Anteil an der Varianz der Personenmittelwerte, der nicht auf die unterschiedlichen Beurteilungen der Rater zurückzuführen ist auch: Wie reliabel ist das mittlere Urteil? Was berechnet ICC(1,1) aus varianzanalytischer Sicht? Geschätzter Anteil an der Gesamtvarianz, der nicht auf die unterschiedlichen Beurteilungen der Rater zurückzuführen ist auch: Wie reliabel ist ein Einzelurteil? Wie sieht ein typisches Anwendungsszenario für das ICC2-Modell aus? Raterpool von n Ratern, hier werden k gezogen, diese Kombination beurteilt alle Personen Welchen Vorteil hat das ICC2-Modell gegenüber dem ICC1-Modell? Genauere Schätzung der Varianz der wahren Werte (außerdem: wenn systematische Ratervarianz vorhanden ist, dann unterschätzt ICC1 die Reliabilität) aber: alle k Rater müssen alle Peronen bewerten Wie sieht das typische Anwendungsszenario vom ICC3-Modell aus? Raterpool von n Ratern, jede Person wird von allen Ratern beobachtet (diese Rater sind die einzigen Rater von Interesse) ICC3: Die Raterunterschiede werden als Faktor in der Varianzanalyse [...], aber nicht [...]. ICC3: Die Raterunterschiede werden als Faktor in der Varianzanalyse geschätzt, aber nicht als Fehler berücksichtigt. Wie fallen die Maße ICC1, ICC2, und ICC3 im Vergleich zueinander typischerweise aus? ICC3 > ICC2 > ICC1 Die Unterschiede zwischen den ICCs sind umso stärker ausgeprägt, je [...]. Die Unterschiede zwischen den ICCs sind umso stärker ausgeprägt, je stärker sich die Rater Mittelwerte unterscheiden. d.h. desto mehr sich die Rater in ihrer Strenge unterscheiden Im ICC Average/Single-Vergleich ist der Wert für [...] meistens größer als der für [...] Im ICC Average/Single-Vergleich ist der Wert für ICC_Average meistens größer als der für ICC_Single Die Mittelung von Ratings reduziert generell den Fehler bei der Beurteilung Die Unterschiede von ICC_average und ICC_single sind u. a. umso stärker, je [...] Die Unterschiede von ICC_average und ICC_single sind u. a. umso stärker, je mehr Rater in das average-Modell einfließen. Was kann man mit der ICC machen, falls ein paralleles Modell vorliegt? Spearman-Brown-Formel verwenden, um aus der Reliabilitätsschätzung des Einzelurteils... - die Reliabilität für beliebig viele k Rater zu schätzen (single -> average) - die benötigte Anzahl k an Ratern zu berechnen, um eine bestimmte gewünschte Zielreliabilität des mittleren Urteils zu erreichen Wie hängen Pearson-Korrelation und ICC-Modelle zusammen? Pearson-Korrelation entspricht ICC(3,1), falls Varianzhomogenität zwischen den Ratern vorliegt (falls nicht, ist das ICC3-Modell der PK vorzuziehen) Warum müssen bei 2-faktoriellen ICC-Modellen alle (gezogenen) Rater alle Personen beurteilen? "Die Berechnung erfolgt klassischerweise mit der Hilfe der Varianzanalyse, und diese benötigt generell ""balancierte"" Daten (in anderen Modellen werden fehlende Werte geschätzt, aber das führt oft zu Problemen bei der Interpretation)" ICC-[...]: Each subject is assessed by each rater, and raters are considered representative of a larger population of similar raters. ICC-[...]: Each subject is assessed by a different set of randomly selected raters. ICC-[...]: Each subject is assessed by each rater, but the raters are the only raters of interest. ICC-2: Each subject is assessed by each rater, and raters are considered representative of a larger population of similar raters. ICC-1: Each subject is assessed by a different set of randomly selected raters. ICC-3: Each subject is assessed by each rater, but the raters are the only raters of interest. Was sind die 2 Hauptanwendungsszenarien von Interviews in der klinischen Psychologie? Anamnese (Freies Gespräch) Klinisches Interview (Diagnoseerstellung) Welche 2 Eigenschaften von (Bewerbungs-)Interviews führen zu einer hohen sozialen Validität? Genug Gelegenheit zur Selbstdarstellung Ziel des Verfahrens ist transparent Was ist der Unterschied zwischen einem unstrukturierten und einem teilstrukturierten Interview? unstrukturiert: keine Vorgaben teilstrukturiert: Fragen liegen explizit vor Was ist der Unterschied zwischen einem teilstrukturierten und einem völlig strukturierten Interview? Beim völlig strukturierten Interview sind nicht nur die Fragen festgelegt, sondern auch deren Reihenfolge Wie unterscheiden sich Interviews mit offenen und geschlossenen Fragen in ihrem Verwendungszweck? Offene Fragen: freies Gespräch, Exploration → Qualitative Datenanalyse, spätere Einordnung in Kategorien Geschlossene Fragen: Eindeutige Diagnostik, Vergleiche ermöglichen → Multiple Choice, Checklisten, Skalen Was ist das Ziel davon, Interviews zu strukturieren? Sicherstellung eines annähernd gleichen Ablaufs des Interviewprozesses bei Betrachtung mehrerer Personen In welchen 3 Gütekriterien sind strukturierte Interviews den unstrukturierten laut der Empirik überlegen? Objektivität Reliabilität Kriteriumsvalidität Strukturierte Interviews sind weniger anfällig für [...] durch äußeres Erscheinungsbild und impression management strategies. Strukturierte Interviews sind weniger anfällig für Beurteilerfehler durch äußeres Erscheinungsbild und impression management strategies. Wie unterscheiden sich Selbsttäuschung und Impression Management Strategies? Selbsttäuschung: Wir sehen uns unbewusst besser, als wir sind IMS: Wir stellen und bewusst besser dar, als wir sind Was sind die 3 großen Probleme von Impression Management Strategies? "Hohe Prävalenz (Jeder macht's) Undurchschaubar (Keiner merkt's → Interviewer identifizieren solche Strategien häufig nicht korrekt) Interaktion mit anderen Beurteilungsverzerrungen (z.B. erster Eindruck)" [...] Fragen sind anfälliger für Darstellungs-Tendenzen als [...] Fragen, aber die Tendenzen werden [...]. Situative Fragen sind anfälliger für Darstellungs-Tendenzen als biografie-bezogene Fragen, aber die Tendenzen werden bei situativen Fragen auch besser erkannt. Wann sollen geschlossene Fragen im strukturierten Interview verwendet werden? Als Filterfragen, Nachfragen oder wenn Antwortalternativen abzählbar sind → sonst immer offene Fragen Welche 3 Fragetypen unterscheidet man in Interviews? Freie Fragen Biografische Fragen Situative Fragen Wofür werden offenen Fragen in Interviews meistens eingesetzt? Icebreaker → keine Erhebung diagnostischer Informationen Was ist die Überlegung hinter dem Einsatz biografischer Fragen? Vergangenes Verhalten ist der beste Prädiktor für zukünftiges Verhalten Worauf beziehen sich biografische und situative Fragen jeweils? biografische Fragen: tatsächlich erlebte Vergangenheiten (Vergangenheit) situative Fragen: vorstellbare hypothetische Situationen (Zukunft) Inwiefern haben situative Fragen einen hohen Erfahrungsanteil? Wenn bereits ähnliche Situationen erlebt wurden, ist es einfacher, sich in der hypothetischen Situation zurecht zu finden. "Planung von Fragen: ""Gute"" und ""Schlechte"" Antworten werden [...]." "Planung von Fragen: ""Gute"" und ""Schlechte"" Antworten werden vorher festgelegt und in eine Reihenfolge gebracht. Qualitative Abstufungen → Punktzahl Unterschiedliche Relevanz der Fragen → Unterschiedliche erreichbare Maximalpunktzahl" Welche 3 Schritte des Interviews müssen strukturiert werden? Planung/Voraussetzungen Durchführung Auswertung & Interpretation Durch welchen Faktor darf die Durchführung eines strukturierten Interviews einzig variiert werden? Interviewte(r) Was ist der erste Schritt bei der Planung eines strukturierten Interviews? Anforderungsanalyse (Interviewziel) CIT: Konkrete, relevante Verhaltensbeispiele sind ebenfalls hilfreich für die Erstellung [...] Musterantworten. CIT: Konkrete, relevante Verhaltensbeispiele sind ebenfalls hilfreich für die Erstellung qualitativ unterschiedlicher Musterantworten. Interviewtraining verbessert die [...] und [...] von strukturierten Einstellungsinterviews. Interviewtraining verbessert die Objektivität und Validität von strukturierten Einstellungsinterviews. Wie viele Interviewer sollten standardmäßig an einem Interview beteiligt sein? 2 (mehr hemmen die Person, der Effekt wurde aber auch schon bei 2 gefunden) Wer sollte bei einem strukturierten Interview protokollieren? Alle Interviewer Wann sollte die Beurteilerdiskussion stattfinden? Sobald alle Interviewer mit der Bewertung fertig sind Erste Schritt der Durchführungsplanung: Erstellen eines [...] mit [...]. Erste Schritt der Durchführungsplanung: Erstellen eines Leitfadens mit komplettem Interviewinhalt. Welche 5 Elemente sollte ein Leitfaden enthalten? 1. Einleitungen/Überleitungen/Zusammenfassungen 2. Fragen (ggf. mit Antwortmöglichkeiten und Nachfragen) 3. Reihenfolge (der Fragen) 4. Platz für Protokollierung 5. Ggf. Auswertungsregeln Was sind die 3 Abschnitte eines Interviews? Gesprächsbeginn (Vorstellung der Beteiligten, Ziele und Dauer des Interviews, Übersicht über Ablauf und Vorgehensweise, Erklärung zum Umgang mit erhobenen Infos) Diagnostische Informationssammlung im Hauptteil Gesprächsabschluss Eigenschaften guter Leitfäden für strukturierte Interviews: - [...] Durchführung - Verwendung [...] Fragen mit [...] - Verzicht auf Informationen, die [...]. - Verwendung [...] pro Dimension und [...] Fragetypen - Trennung von [...] und [...] Eigenschaften guter Leitfäden für strukturierte Interviews: - Strukturierte Durchführung - Verwendung psychometrische geprüfter, inhaltsvalider Fragen mit Anforderungsbezug - Verzicht auf Informationen, die anders zuverlässiger gesammelt werden können. - Verwendung mehrerer Fragen pro Dimension und verschiedener Fragetypen - Trennung von Informationssammlung und Bewertung Wichtig bei der Strukturierung der Auswertung von Interviews: Klare Zuordnung der ausgewerteten Antworten zu [...]. Wichtig bei der Strukturierung der Auswertung von Interviews: Klare Zuordnung der ausgewerteten Antworten zu Zielmerkmalen. Wichtig bei der Strukturierung der Auswertung von Interviews: [...] der Zielmerkmale, um Interpretationsobjektivität zu sichern. Wichtig bei der Strukturierung der Auswertung von Interviews: Inhaltliche Beschreibung der Zielmerkmale, um Interpretationsobjektivität zu sichern. Wie viele Stufen hat das Multimodale Interview nach Schuler (1992)? 8 → 5 zur diagnostischen Urteilsbildung → 3 für Information des Bewerbers, Gesprächsbeginn und -abschluss Stufen des Multimodalen Interviews nach Schuler (1992): 1. Gesprächsbeginn 2. Selbstvorstellung des Interviewten 3. Freier Gesprächsteil (offene Fragen zur Selbstdarstellung) 4. Berufsinteressen, Berufs- und Organisationswahl (Motivation, Selbsteinschätzung, Handlungswissen) 5. [...] 6. [...] 7. [...] 8. Gesprächsabschluss Stufen des Multimodalen Interviews nach Schuler (1992): 1. Gesprächsbeginn 2. Selbstvorstellung des Interviewten 3. Freier Gesprächsteil (offene Fragen zur Selbstdarstellung) 4. Berufsinteressen, Berufs- und Organisationswahl (Motivation, Selbsteinschätzung, Handlungswissen) 5. Biografiebezogene Fragen (Ratingskalen) 6. Realistische Tätigkeitsinformationen (keine Beurteilung) 7. Situative Fragen (Einstufungsskalen) 8. Gesprächsabschluss Stufen des Multimodalen Interviews nach Schuler (1992): 1. Gesprächsbeginn 2. [...] 3. [...] 4. [...] 5. Biografiebezogene Fragen (Ratingskalen) 6. Realistische Tätigkeitsinformationen (keine Beurteilung) 7. Situative Fragen (Einstufungsskalen) 8. Gesprächsabschluss Stufen des Multimodalen Interviews nach Schuler (1992): 1. Gesprächsbeginn 2. Selbstvorstellung des Interviewten 3. Freier Gesprächsteil (offene Fragen zur Selbstdarstellung) 4. Berufsinteressen, Berufs- und Organisationswahl (Motivation, Selbsteinschätzung, Handlungswissen) 5. Biografiebezogene Fragen (Ratingskalen) 6. Realistische Tätigkeitsinformationen (keine Beurteilung) 7. Situative Fragen (Einstufungsskalen) 8. Gesprächsabschluss Die Qualität eines Urteils kann überprüft werden, wenn [...] vorliegt Die Qualität eines Urteils kann überprüft werden, wenn ein Goldstandard vorliegt („Kriteriumswerte“, z.B. eine bestätigte psychiatrische Diagnose, der Ausbildungs- oder Berufserfolg, …) Was ist der Unterschied zwischen klinischer Urteilsbildung und statistischer/mechanischer Urteilsbildung? Klinische Urteilsbildung: - Individuelle (intuitive) Urteile von Menschen - Freie Kombination der vorhandenen Informationen Statistische Urteilsbildung: - Anwendung einer feststehenden, zuvor empirisch ermittelten Verrechnungsvorschrift - Kombination der vorhandenen Informationen nach dieser Regel Meta-Analysen von Grove et al. (2000): Mechanische Urteile sind im Durchschnitt [...]% genauer als klinische Meta-Analysen von Grove et al. (2000): Mechanische Urteile sind im Durchschnitt 10% genauer als klinische Zudem unabhängig von der Erfahrung der Beurteiler! Statistische Urteilsmodelle können nur mit den Informationen konstruiert werden, die [...]. Statistische Urteilsmodelle können nur mit den Informationen konstruiert werden, die für alle Personen vorliegen. Wenn ein Wert in das Gesamturteil eines Modells mit einfließt, benötigt man diesen für alle Personen, die beurteilt werden sollen. Welche Art der diagnostischen Urteilsbildung wird in der Praxis vor allem verwendet? Klinische! (mechanische Modelle oft nicht verfügbar, keine Vertrautheit mit Modell, kann nicht alle Faktoren berücksichtigen) Wie erkennt man einen validen Test in der Punktewolke der Test/Kriteriums-Visualisierung? Punkte streuen nah um die winkelhalbierende Gerade Die Qualität der Überlegungen zu Urteilsfehlern hängt von der Qualität des [...] ab Die Qualität der Überlegungen zu Urteilsfehlern hängt von der Qualität des Goldstandards ab Welche 4 Kategorien der (Nicht-)Übereinstimmung unterscheidet man bei Test/Kriteriums Vergleichen? True Positives False Positives True Negatives False Negatives Synonyme: [...]: True Positive [...]: False Negative [...]: False Positive [...]: True Negative Synonyme: Hit: True Positive Miss: False Negative False Alarm: False Positive Correct Rejection: True Negative Synonyme: Hit: [...] Miss: [...] False Alarm: [...] Correct Rejection: [...] Synonyme: Hit: True Positive Miss: False Negative False Alarm: False Positive Correct Rejection: True Negative Was ist die Selektionsrate? (TP+FP) / N (→ Direkt abhängig vom Cutoff Wert des Tests) Was ist die Prävalenz/Basisrate? "(TP + FN) / N (auch: considered satisfactory oder ""wie gut wäre eine Klassifikation ohne Test"")" Was ist die Sensitivität? TP / (TP + FN) Wahrscheinlichkeit, mit der ein vorliegender positiver Zustand als solcher erkannt wird → Trefferquote Was ist die Spezifizität? TN / (TN + FP) Wahrscheinlichkeit, mit der ein vorliegender negativer Zustand als solcher erkannt wird Hohe Sensitivität → Wenige [...]! Hohe Sensitivität → Wenige False-Negatives! Hohe Spezifität → Wenige [...]! Hohe Spezifität → Wenige False-Positives! Was ist der PPV (Positive Prädiktoren Wert)? TP / (TP + FP) Wahrscheinlichkeit, mit der ein positives Urteil zutreffend ist Was ist de NPV (Negativer Prädiktor Wert)? TN / (FN + TN) Wahrscheinlichkeit, mit der ein negatives Urteil zutreffend ist Was ist die AKD/Accuracy? (TP + TN) / N Wahrscheinlichkeit, mit der ein gefälltes Urteil zutreffend ist Problem: Gibt keinen Aufschluss über Unterschiede zwischen negativen / positiven Urteilen Ob Sensitivität oder Spezifität wichtig(er) sind, hängt davon ab, [...] Ob Sensitivität oder Spezifität wichtig(er) sind, hängt davon ab, welcher Fehler im Vordergrund steht und minimiert werden soll False-Negatives → Sensitivität bzw. NPV False-Positives → Spezifität bzw. PPV Welche Gütekennzahlen betrachtet man jeweils, wenn die Eigenschaften bzw. Relevanz eines Verfahrens von Interesse sind? Eigenschaften (Qualität): Sensitivität, Spezifizität Relevanz: PPV, NPV Wie kann man alpha Fehler durch Gütekennzahlen von Urteilen ausdrücken? alpha = FP / (FP + TN) = 1 - Spezifizität Wie kann man beta Fehler durch Gütekennzahlen von Urteilen ausdrücken? beta = FN / (FN + TP) = 1 - Sensitivität Welche 3 Größen spielen bei der Optimierung von Auswahlentscheidungen eine Rolle? 1. Validität 2. Basisrate 3. Cut-Off-Wert (Testtrennwert) Welche Rolle spielt die Validität bei der Optimierung von Auswahlentscheidungen? Höhere Validität verringert alle Fehlentscheidungen → Verbessert alle Gütekriterien (aber Cut-Off-Wert des Tests muss zu Kriterium passen) Eine höhere Basisrate geht mit einem höheren [...] einher, aber einem niedrigeren [...] Eine höhere Basisrate geht mit einem höheren PPV einher, aber einem niedrigeren NPV Eine niedrige Basisrate geht mit einem höheren [...] einher, aber einem niedrigeren [...] Eine niedrige Basisrate geht mit einem höheren NPV einher, aber einem niedrigeren PPV Die Basisrate in der Population hat keinen Einfluss auf [...] Die Basisrate in der Population hat keinen Einfluss auf Sensitivität und Spezifität Was ist bei extrem geringen/hohen Basisraten im Hinblick auf Urteile zu beachten? geringe/moderate Validität → mehr Fehler als bei Zufallsauswahl Ein höherer Testtrennwert ( → geringere [...]) geht mit einem höheren [...] und einer höheren [...] einher Ein höherer Testtrennwert ( → geringere Selektionsrate) geht mit einem höheren PPV und einer höheren Spezifität einher Ein niedrigerer Testtrennwert (→ höhere [...]) geht mit einem höheren [...] und einer höheren [...] einher Ein niedrigerer Testtrennwert (→ höhere Selektionsrate) geht mit einem höheren NPV und einer höheren Sensitivität einher Die [...] hilft bei der Findung für Cut-Off-Werte für ein optimales Verhältnis zwischen Sensitivität und Spezifität Die ROC Kurve (Receiver operating characteristics) hilft bei der Findung für Cut-Off-Werte für ein optimales Verhältnis zwischen Sensitivität und Spezifität Die ROC Kurve (Receiver operating characteristics) hilft bei [...] Die ROC Kurve (Receiver operating characteristics) hilft bei der Findung für Cut-Off-Werte für ein optimales Verhältnis zwischen Sensitivität und Spezifität Was sind die beiden Achsen der ROC Kurve? y: Sensitivität x: 1-Spezifität (Fehlerrate) Welches (neue) Gütekriterium für Urteile kann man aus der ROC Kurve gewinnen? Area under the curve Je weiter weg die Kurve von der Diagonalen ist (AUC = 0.5 → Zufallsprozess), desto höher die AUC und desto besser ist die Güte des Verfahrens Was ist die Diskriminationsfähigkeit eines Verfahrens? Kombination aus Sensitivität + Spezifität: Wie gut kann zwischen positiven und negativen Zuständen differenziert werden? Was ist der Wertebereich der AUC von ROC? 0-1, aber realistisch 0.5-1 Welche 4 Größen (Gütekennzahlen) können bei der Optimierung von Auswahlentscheidungen maximiert werden? Sensivität Spezifität PPV NPV Welche Gütekennzahl von Urteilen will man bei Personalauswahlverfahren meistens maximieren? PPV Welche Gütekennzahl von Urteilen will man bei klinischen Diagnosen meistens maximieren? Sensitivität Die Inferenz über ein Merkmal hängt nicht nur vom Testergebnis (Diagnose) und der Qualität des Tests (Sensitivität und Spezifität) ab, sondern auch von der [...] Die Inferenz über ein Merkmal hängt nicht nur vom Testergebnis (Diagnose) und der Qualität des Tests (Sensitivität und Spezifität) ab, sondern auch von der Basisrate (Prävalenz) Man betrachtet [...] für eine generelle Auswahl von einem Verfahren zur Urteilsfindung, und [...] bei einem konkret vorliegenden Urteil. Man betrachtet Sensitivität und Spezifität für eine generelle Auswahl von einem Verfahren zur Urteilsfindung, und NPV und PPV bei einem konkret vorliegenden Urteil. Unterschied kriteriumsorientierte vs normorientierte Entscheidung? Kriteriumsorientiert: Das Testergebnis wird mit einem festgesetzten Kriterium verglichen, z.B. für eine positive Entscheidung muss ein bestimmter absoluter Wert erreicht werden Normorientiert: Das Testergebnis wird in Relation zu einer (sinnvollen) Bezugsgruppe interpretiert, z.B. für eine positive Entscheidung muss ein überdurchschnittliches Ergebnis im Vgl. zu Gleichaltrigen vorliegen Formel für KI mit approximativem Konfidenzniveau? "x +- z1-alpha/2 * sigmax * sqrt(1-REL) (Hintere 2 Teile: ""Approximativer Standardmessfehler"")" 6 Schritte der normorientierten Einzelfalldiagnostik? 1. Durchführung 2. Ermittlung Standardmessfehler 3. Bildung Konfidenzintervall 4. Ermittlung der interessierenden Normstichprobe 5. Umrechnung in z Werte oder direktes Ablesen von Normwerten 6. Verbale Klassifikation des Konfidenzintervalls bei Rückmeldung/Gutachten Was sind die 3 wichtigsten Aspekte für die Relevanz von Normstichproben? Größe Aktualität Repräsentativität (+ gibt es Teilnormstichproben, gibt es für diese eigene Reliabilitätsschätzungen?) Faustregel: Die Stichprobe sollte mindestens [...] Personen umfassen. Faustregel: Die Stichprobe sollte mindestens 200-400 Personen umfassen. ! Teilnormstichprobe ist gemeint ! Wie oft soll laut DIN Norm 33430 überprüft werden, ob eine Norm noch aktuell ist? Alle 8 Jahre Welche 2 Punkte werden für die optimale Erstellung einer repräsentativen Normstichprobe empfohlen? 1. Definition der Zielpopulation 2. Ziehung einer Zufallsstichprobe (→ Angaben zur Rekrutierung, Stichprobenzusammensetzung, Testsituation) Generelle Formel für Normwerte (bei gegebener Normskala)? MW der Normskala + (SD der Normskala * zv) MW und SD von IQ Werten? MW: 100 SD: 15 MW und SD von Standardwerten? MW: 100 SD: 10 MW und SD von T-Werten? MW: 50 SD: 10 MW und SD von C-Werten? MW: 5 SD: 2 Wie unterscheiden sich z-Werte und Prozentränge in ihrer Skalierung? z-Werte: Intervallskalenniveau Prozentränge: Ordinalskalenniveau Was ist ein Prozentrang? gibt an, wie viel Prozent der Normstichprobe einen Testwert erzielten, der niedriger oder maximal ebenso hoch ist, wie der Testwert der getesteten Person Befindet sich der Mittelwert der Normstichprobe innerhalb des KIs, so ist das Klassifikationsergebnis [...]. "Befindet sich der Mittelwert der Normstichprobe innerhalb des KIs, so ist das Klassifikationsergebnis immer ""Durchschnittlich""." Was sind die 2 Einflussgrößen auf die Klassifizierung in verbale Kategorien (die man unabhängig vom Testwert festlegen kann)? Wahl des Durchschnittsbereichs (Typischerweise MW +- 1 SD) Wahl des Konfidenzniveaus (95%, 90%, 80%) Zweiseitige Z-Werte für Konfidenzintervalle: 95%: [...] 90%: [...] 80%:[...] Zweiseitige Z-Werte für Konfidenzintervalle: 95%: 1.96 90%: 1.64 80%:1.28 Welche 3 Punkte beinhaltet die mündliche Rückmeldung an nicht-fachliche Personen? "1. Angabe des Messinstruments 2. Inhaltliche Beschreibung des Maßes (was bedeutet z.B. fluide Intelligenz) 3. Norm-Wert nicht als Zahl, sondern als verbalisiertes, klassifizierendes Intervall unter Einbeziehung der Normstichprobe (""Unter Berücksichtigung der Messungenauigkeit"")" Was muss neben den Inhalten für mündliche Rückmeldung noch im Gutachten der Einzelfalldiagnostik vorkommen? Zitation des Tests (+ Hinweise, unter welchen Bedingungen die Messung stattgefunden hat) Welchen typischen Fehlschluss gibt es bei der Interpretation eines frequentistischen 95% Konfidenzintervalls? """Chance, dass KI den wahren Wert der getesteten Person enthält, beträgt 95%"" → Falsche Interpretation, gilt nur für bayesianisches KI unter Annahme einer Prior" Was ist die Grundidee der Bayes-Statistik? Bestehende Erkenntnis/Annahme (Prior) wird mit neuen Erkenntnissen aus den Daten (Likelihood) kombiniert, woraus eine neue, verbesserte Erkenntnis (Posterior) resultiert Likelihood: Formalisiert das Wissen, das wir [...] Likelihood: Formalisiert das Wissen, das wir durch die Daten erlangen Wie hängen Reliabilität und Likelihood zusammen? Je unreliabler ein Test, desto breiter ist die Likelihood Was ist die Prior? Die Prior-Verteilung ist eine Vorannahme, die definiert, wie plausibel mögliche wahre Werte in der Population a priori sind (d.h., bevor man die Daten gesehen hat) Was ist die Posterior-Verteilung? Die Posterior-Verteilung quantifiziert die Plausibilität möglicher wahrer Werte nachdem man die Testwerte erhalten hat („Updating process“ → Wir haben unser Wissen mit Hilfe der erhobenen Daten aktualisiert, daraus resultiert eine (verbesserte) Wahrscheinlichkeitsverteilung) "Was ist das ""highest density interval"" (95%)?" "95% der Fläche unter der Posterior-Verteilung (symmetrisch um Mittelwert) → Interpretation ""Der wahre Wert liegt mit 95% Wahrscheinlichkeit zwischen...""" "Wie unterscheiden sich die ""besten"" Punktschätzer für den wahren Wert zwischen Bayes und Frequentismus?" Bayes: Modus der Posterior Frequentismus: beobachteter Wert Wie unterscheidet sich der Wahrscheinlichkeits-Begriff zwischen Frequentismus und Bayes? "Frequentismus: Wahrscheinlichkeit, dass ein Ereignis ""in the long run"" mit einer bestimmten Auftretenshäufigkeit eintritt Bayes: Subjektive Überzeugung über die Plausiblität bestimmter Ereignisse" Was nimmt man an, wenn man ein frequentistisches KI bayesianisch interpretiert? Eine flache Prior Wie hängen Reliabilität und Posterior-Verteilung zusammen? Je unreliabler, desto mehr wird die Posterior von der Beobachtung hin zu Prior verschoben (+ Varianz) Wann verlässt man sich eher auf Prior, wann eher auf Likelihood? Je reliabler das Messinstrument, desto mehr Gewicht auf die Likelihood Unter welchen 2 Bedingungen ist die Abweichung zwischen frequentistischen und bayesianischen KIs besonders groß? Testwert fällt in dünn besiedelten Bereich der Prio Test ist unreliabel Für welche Art der Statistik kann man Wahrscheinlichkeitsaussagen über den Einzelfall treffen? Bayes Wenn die Vorannahmen stimmen, dann ist die Bayesianische Punktschätzung im Schnitt [...] wahren Wert und das Bayesianische HDI ist [...]. Wenn die Prior jedoch von der Realität abweicht, kann die Bayesianische Punktschätzung [...] wahren Wert als die frequentistische. Wenn die Vorannahmen stimmen, dann ist die Bayesianische Punktschätzung im Schnitt näher am wahren Wert und das Bayesianische HDI ist schmaler (effizienter). Wenn die Prior jedoch von der Realität abweicht, kann die Bayesianische Punktschätzung weiter weg sein vom wahren Wert als die frequentistische. Was ist Ziel der Entscheidungstheorie? Abwägungsprozess formalisieren und damit vergleichbar machen Um den Verlust verschiedener Konsequenzen für unsere Zwecke miteinander vergleichen zu können, muss mindestens [...] vorliegen! Um den Verlust verschiedener Konsequenzen für unsere Zwecke miteinander vergleichen zu können, muss mindestens eine Verhältnisskala vorliegen! Die Einheit der Verlustwerte ist dabei nicht relevant, sondern lediglich ihre Gewichtung. Wie unterscheiden sich Entscheidungen unter Unsicherheit und Risiko? Unsicherheit: Es sind nur verschiedene mögliche Zustände bekannt Risiko: Es sind auch die verschiedenen Eintrittswahrscheinlichkeiten bekannt Was ist typischerweise das Entscheidungskriterium bei Entscheidungen unter Risiko? Erwarteter Verlust der Aktionen (soll am geringsten sein) Was ist das Problem, wenn man die Zustandswahrscheinlichkeiten anhand von Punktprävalenzen aus der Allgemeinbevölkerung bestimmt? Zu allgemein → Verteilung in vorliegender Population eventuell anders Was ist die 95%-KI-Entscheidungsregel? Der Wert einer Person auf der latenten Variable wird als unter-/überdurchschnittlich angesehen, wenn die obere/untere Grenze eines 95%-Konfidenzintervall mindestens 1SD unter/über dem Mittelwert der Normstichprobe liegt. Die 95%-KI-Regel gewichtet den Fehler 1. Art [...]-mal stärker als den Fehler 2. Art! Die 95%-KI-Regel gewichtet den Fehler 1. Art 39-mal stärker als den Fehler 2. Art! Soll der Fehler 2. Art durch eine KI-Regel stärker gewichtet sein, muss [...] betrachtet werden. Soll der Fehler 2. Art durch eine KI-Regel stärker gewichtet sein, muss die äußere Grenze des KI betrachtet werden. äußere Grenze: Grenze, die näher an H1 liegt z.B. sobald die untere Grenze im unterdurchschnittlichen Bereich liegt, würde man die Person als unterdurchschnittlich einstufen Die Reliabilität hat generell einen stärkeren Einfluss auf die Breite des [...] Konfidenzintervalls als auf die Breite des [...] Konfidenzintervalls. Die Reliabilität hat generell einen stärkeren Einfluss auf die Breite des frequentistischen Konfidenzintervalls als auf die Breite des bayesianischen Konfidenzintervalls. Je [...] die Reliabilität, desto weiter weicht die beste bayesianische Schätzung für den wahren Wert von dem beobachteten Testwert ab. Je geringer die Reliabilität, desto weiter weicht die beste bayesianische Schätzung für den wahren Wert von dem beobachteten Testwert ab. Je näher der beobachtete Wert beim Mittelwert der Prior, desto [...] stimmt die beste Schätzung für den wahren Werte der beiden statistischen Ansätze überein Je näher der beobachtete Wert beim Mittelwert der Prior, desto mehr stimmt die beste Schätzung für den wahren Werte der beiden statistischen Ansätze überein Je näher der beobachtete Wert beim Mittelwert der Prior, desto [...] überlappen frequentistisches und bayesianisches KI Je näher der beobachtete Wert beim Mittelwert der Prior, desto mehr überlappen frequentistisches und bayesianisches KI Welche 3 Größen haben einen Einfluss auf die Varianz der Posteriorverteilung? Reliabilität SD der Prior SD des Testwerts in der Normstichprobe (nicht: beobachteter Testwert und Mittelwert der Prior) Welche Informationen benötigt man, um zu bestimmen, ob ein Test inhaltsvalide ist? Theorie bzw. theoretisch hergeleitete Definition des zu messenden Konstrukts, um zu überprüfen, ob das Konstrukt in seiner Breite vollständig abgebildet wird Welchen Zusammanhang gibt es zwischen Validität und Selektionsrate? Keinen Je [...] die Validität, desto näher sind die Fehlentscheidungen in der Nähe des Test- & Kriteriums-Cut-Off-Werts Je höher die Validität, desto näher sind die Fehlentscheidungen in der Nähe des Test- & Kriteriums-Cut-Off-Werts Je höher die Validität, desto [...] sind die Fehlentscheidungen in der Nähe des Test- & Kriteriums-Cut-Off-Werts Je höher die Validität, desto näher sind die Fehlentscheidungen in der Nähe des Test- & Kriteriums-Cut-Off-Werts Ist der Median der Kriteriumsverteilung gleich dem Kriteriums-Cut-Off, so [...]. Ist der Median der Kriteriumsverteilung gleich dem Kriteriums-Cut-Off, so ist die Basisrate 0.5. Wenn der Mittelwert der Kriteriumsverteilung dem Kriteriums-Cut-Off entspricht, dann ist die Basisrate nur dann [...], wenn die Kriteriumsverteilung einer Normalverteilung folgt (oder Median = Mittelwert). Wenn der Mittelwert der Kriteriumsverteilung dem Kriteriums-Cut-Off entspricht, dann ist die Basisrate nur dann 0.5, wenn die Kriteriumsverteilung einer Normalverteilung folgt (oder Median = Mittelwert). Wenn der Mittelwert der Kriteriumsverteilung dem Kriteriums-Cut-Off entspricht, dann ist die Basisrate nur dann 0.5, wenn [...]. Wenn der Mittelwert der Kriteriumsverteilung dem Kriteriums-Cut-Off entspricht, dann ist die Basisrate nur dann 0.5, wenn die Kriteriumsverteilung einer Normalverteilung folgt (oder Median = Mittelwert). Wann sollte man einfach alle Bewerber eines Auswahlverfahrens annehmen, ohne mit einem vorliegenden Verfahren zu testen? Wenn die Basisrate höher als die Accuracy des Tests ist Welche 2 Arten der Entscheidungen unterscheidet das Regelkreismodell nach Tack (1976)? Investigatorische Enscheidungen Terminale Entscheidungen Innerhalb der unjustierten Maße: [...], so fällt Cohens κ höher aus als Scotts π. Innerhalb der unjustierten Maße: Sind die Randverteilungen ungleich, so fällt Cohens κ höher aus als Scotts π. → Unterschiedliche Wahrnehmungsschwellen werden bei Scotts π stärker bestraft Wann ist Scotts π größer als Cohens κ? Nie Was ist der mögliche Wertebereich der Odds Ratio bei systematischer Übereinstimmung? (ausgeschlossen) 1 bis unendlich (ausgeschlossen) Was ist der mögliche Wertebereich der Odds Ratio bei systematischer Nicht-Übereinstimmung? 0 bis 1 (ausgeschlossen) Was ist der Unterschied zwischen einer vollständig sequentiellen Strategie und einer nichtsequentiellen Untersuchungsbatterie? Vollständig sequentielle Strategie: Mehrstufig Nichtsequentielle Untersuchungsbatterie: Einstufig Wie hängen Retest-Reliabilität und Validität zusammen? Hohe Retest-Reliabilität bei States → Validität ist nicht gegeben, da vermutlich etwas ganz anderes gemessen wird "Was ist ""kausale Validität""?" (Merkmal existiert &) Variation im Merkmal führt kausal zu Variation im Testergebnis Was ist inkrementelle Validität? Verbesserung der Kriteriumsvorhersage über andere Verfahren hinaus Was ist faktorielle Validität? Erwartungsgemäße Faktorstruktur des Tests Unterschied additives vs. kompensatorisches Entscheidungsmodell? Keiner, da Synonyme Welches Gütekriterum eines Test liegt vor, wenn Fallbeispiele im Manual beschrieben werden? Interpretationsobjektivität Welches Gütekriterum eines Test liegt vor, wenn im Manual Vorgaben zur Benennung und Beschreibung des erhobenen Merkmals und der Bedeutung seiner Ausprägung vorliegen? Interpretationsobjektivität Welches Gütekriterum eines Test liegt vor, wenn festgelegte Ausschlusskriterien im Manual beschrieben werden? Auswertungsobjektivität Welches Gütekriterum eines Test liegt vor, wenn die Berechnung der Konfidenzintervalle im Manual beschrieben werden? Auswertungsobjektivität Welches Gütekriterum eines Test liegt vor, wenn Antwortmöglichkeiten von Interviews im Manual festgelegt werden? Auswertungsobjektivität Welches Gütekriterum eines Test liegt vor, wenn Interviewleitpläne/Beobachtungspläne im Manual beschrieben werden? Durchführungsobjektivität Welchen Varianzanteil beschreibt die Reliabilität? Anteil der Varianz der wahren Werte an der Gesamtvarianz Was sind die typischen 3 Teilaspekte der Validität im Kontext von Testverfahren? Inhaltsvalidität Kriteriumsvalidität Konstruktvalidität (auch: kausale Validität) Wann ist Inhaltsvalidität gegeben? Wenn die Bestandteile eines Verfahrens das zu messende Merkmal hinreichend und in seiner kompletten Breite repräsentativ erfassen Welche 4 verschiedenen Perspektiven der Kriteriumsvalidität unterscheidet man? Vorhersagevalidität Übereinstimmungsvalidität Retrospektive Validität Inkrementelle Validität Was besagt das Nebengütekriterium Ökonomie? Kurz, einfach in der Handhabung, für Gruppenuntersuchungen geeignet, wenig materialintensiv, schnell auswertbar "Was besagt das Nebengütekriterium ""Zumutbarkeit""?" Untersuchte Person wird in zeitlicher, psychischer und körperlicher Hinsicht geschont Welche 4 Arten der Interviewstrukturierung unterscheidet man? "Unstrukturiertes Interview (Keine Vorgaben zu Durchführung und Auswertung) Teilstrukturiertes Interview (Fragen liegen explizit vor) Völlig strukturiertes Interview (Festlegung der Reihenfolge der Fragen, eventuell auch teilweise Antwortmöglichkeiten) Vollstandardisiertes Interview (Antwortmöglichkeiten vollständig vorgegeben, ""vorgelesener Fragebogen"")" Auf welche 2 Weisen hilft die CIT bei der Interviewplanung? Identifikation relevanter Anforderungsdimensionen Erstellung von situativen/biografischen Fragen Welche 3 Größen benötigt man für eine normorientierte Testauswertung? Testwert (Normwert oder Umrechnung) Konfidenzintervall für den Normwert (Mittelwert SD) Detailierte Informationen zur passenden Bezugsgruppe Prozentränge sind vor allem nützlich zur [...]. Prozentränge sind vor allem nützlich zur Beschreibung schief verteilter Werte. Wo auf der Verteilung sind die Differenzen zwischen benachbarten Prozenträngen besonders niedrig? Wenn sie auf eine dicht besiedelte Teile der Verteilung fallen ( Wertdifferenz pro Prozentrang: Wenn Verteilungsabschnitt dünn besiedelt → größere Differenz der Werte Prozentrangsänderung pro Wert: Wenn Verteilungsabschnitt dicht besiedelt → größere Änderung an Prozenträngen ) Bayes: Die [...] ist proportional zum Produkt aus [...] und [...] Bayes: Die Posterior ist proportional zum Produkt aus Likelihood und Prior Wie unterscheiden sich CIs und HDIs in ihren Vorannahmen? CI: Berechnung des Standardfehlers HDI: Berechnung des Standardfehlers, Prior Mit welcher Formel kann man den Zusammenhang zwischen Fehlergewichtung und alpha Niveau ausdrücken? Verlust_bei_Fehler_schlimm / Verlust_bei_Fehler_weniger_schlimm = (1 - a/2) / (a/2) Was ist Elicitation in der Entscheidungstheorie? Feststellung von Verlust bzw. Verlustfunktion Welche 2 Paare von Beobachterfehlern laufen jeweils gegensätzlich zueinander? Zentrale Tendenz vs Extremurteile Besondere Strenge vs Milde-Effekt Was muss für die 2-faktorielle ICC gelten, aber nicht für die 1-faktorielle ICC? Alle Rater müssen alle Personen beobachtet haben Welche 3 Größen haben einen Einfluss auf die Breite des approximativen Konfidenzintervalls? Reliabilität Konfidenzniveau Standardabweichung des Summenwertes Welche 2 Angaben werden außer der Höhe der Reliabilität noch benötigt, um die Reliabilität sinnvoll interpretieren/verwenden zu können? Art von Reliabilitätsschätzung (macht diese Sinn, relevant für vorliegenden Test) Informationen zur Normstichprobe (genügend große Stichprobe, anwendbar) Welche 3 Gütekriterien für Indikatoren unterscheidet man? Objektivität (Alle Beobachter verstehen das Gleiche, die Indikatoren sind verhaltensnah und konkret) Reliabilität (Liste der Indikatoren ist von einem einzelnen Beobachter während des Zeitraums überblickbar) Validität (Verhalten kann Zielmerkmal zugeordnet werden, Verhalten kommt in der Situation vor) 5 Eigenschaften von Indikatoren bei Verhaltensbeobachtungen? (es gibt mehr, aber die hier lernen wir für die Klausur auswendig) 1. Verhalten tritt in Situation überhaupt auf 2. Lassen sich zuversichtlich von allen Rater identifizieren 3. Alle Rater verstehen unter dem Indikator das Gleiche 4. Klare zeitliche Erstreckung 5. Indikatoren decken Konstrukt in seiner Breite ab Wie kann man die Odds Ratio einfach in Worten ausdrücken? Faktor, um den die Chance für ein positives Urteil höher ist, wenn ein Beobachter bereits ein positives Urteil (im Vergleich zu einem negativen Urteil) vergeben hat [...] und [...] sind keine Gütekriterien eins Verfahrens/Urteils. Basisrate und Selektionsrate sind keine Gütekriterien eins Verfahrens/Urteils. Basisrate und Selektionsrate sind keine [...]. Basisrate und Selektionsrate sind keine Gütekriterien eins Verfahrens/Urteils. Was sind die 5 Gütekriterien (Kennzahlen) von Verfahren/Urteilen? Sensitivität Spezifität PPV NPV Accuracy Was muss für den anderen Test gelten, den man zur Beurteilung der Konstruktvalidität heranzieht? Der andere Test muss valide sein (Sonst Gefahr von Zirkelschlüssen)